La inferencia estadística pregunta: "Dada esta información, ¿cuáles son los parámetros subyacentes más probables?" Esta diapositiva conecta esa pregunta con Optimización Convexa. Transformamos el concepto probabilístico de verosimilitud en un programa estructurado, mostrando que bajo condiciones de log-concavidad, encontrar la mejor estimación es equivalente a resolver un problema de optimización convexa.
El Marco de la Verosimilitud
La función de verosimilitud es la distribución de probabilidad $p_x(y)$ considerada como una función del parámetro $x$ para una muestra observada fija $y$. Para estimar $x$, empleamos estimación de máxima verosimilitud (ML): eligiendo el valor que hace que los datos observados sean más probables.
$$\hat{x}_{ml} = \text{argmax}_x p_x(y) = \text{argmax}_x l(x)$$
Para mayor eficiencia computacional, usamos la función de verosimilitud logarítmica, $l(x) = \log p_x(y)$. Debido a que el logaritmo es una función monótonamente creciente, preserva la ubicación del máximo mientras convierte productos (de observaciones independientes) en sumas fáciles de manejar.
El Programa de Optimización de MLE (7.1)
Formalizamos la estimación como un programa matemático:
Este programa es un problema de optimización convexa si:
- La función de verosimilitud logarítmica $l$ es cóncava para cada valor de $y$.
- El conjunto factible $C$ (información previa) está descrito por restricciones de igualdad lineales y desigualdades convexas.
Incorporación de Restricciones y Previas
La estimación de máxima verosimilitud requiere redefinir $p_x(y)$ como cero para $x \notin C$ para imponer explícitamente restricciones físicas o previas. En el espacio de optimización, esto significa que la función de verosimilitud logarítmica se asigna el valor $-\infty$ para los parámetros $x$ que violan estas restricciones, creando efectivamente una barrera infranqueable para el optimizador.